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基于 Transformer 的 图 像 分 类 网 络 MultiFormer 
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摘 要 : 为 解决 目前 ViT 模型 无 法 改变 输入 补丁 大 小 且 输入 补丁 都 是 单一 尺度 信息 的 缺点 ， 提 出 了 一 种 基于 
Transformer 的 图 像 分 类 网 络 称 为 MultiFormer。MultiFormer 通过 AWS(Attention With Scale) 模 块 ， 将 每 阶段 不 同 尺 
度 输 入 小 补丁 嵌入 为 具有 丰富 语义 信息 的 大 补丁 ; 通过 GLA-P(Global-Local Attention With Patch) 模 块 交替 捕获 局 部 
和 全 局 注意 力 ， 在 诺 入 时 同时 保留 了 细 粒 度 和 粗 粒 度 特征 。 设 计 了 MultiFormer-Tiny、-Small 和 -Base 三 种 不 同 变 体 
的 MultiFormer 模型 网 络 ， 在 ImageNet 图 像 分 类 实验 中 Top-l 精度 分 别 达 到 81.1%、82.2% 和 83.2%， 后 两 个 模型 对 
比 同体 量 的 卷 积 神经 网 络 ResNet-50 和 ResNet-101 提升 3.1% 和 3.4%; 对 比 同 样 基 于 Transformer 分 类 模型 ViT， 
MultiFormer-Base 在 参数 和 计 算 量 远 小 于 ViT-Base/16 模型 且 不 需要 大 量 数据 预 训练 前 提 下 提升 2.1%。 
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MultiFormer: image classification network based on Transformer 
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Abstract: In order to solve the disadvantage that the ViT cannot change the input patch size and the input patches are all 
single-scale information, this paper proposed an image classification network based on Transformer called MultiFormer. 
MultiFormer embeds small patches with different scales of input at each stage into large patches with rich semantic 
information through the AWS (Attention With Scale) module; and captures local and global attention alternately through the 
GLA-P (Global-Local Attention With Patch) module, preserving both fine-grained and coarse-grained features during 
embedding. This paper designed MultiFormer-Tiny, -Small and -Base networks of three different sizes to achieve 81.1%, 82.2% 


“a and 83.2% Top-1 accuracy respectively in ImageNet image classification experiments, the latter two models improve by 3.1% 
r and 3.4% compared to the same volume of convolutional neural networks ResNet-50 and ResNet-101; MultiFormer-Base 
offers a 2.1% improvement with far fewer parameters and computational effort than the ViT-Base/16 model, and without the 


need for extensive data pre-training. 
Key words: machine vision; deep learning; image classification; self-attention; Transformer 


0 als 并 用 于 图 像 分 类 、 目 标 检测 和 语义 分 割 等 计算 机 视觉 任务 。 
一 Vision Transformer(ViT)09 由 于 不 使 用 卷 积 神经 网 络 而 

一 方面 ， 图 像 分 类 凹 、 目 标 检 测 所 和 语义 分 割 呈 等 计算 机 ”通过 图 像 序列 化 将 Transformer 应 用 于 图 像 分 类 , 因此 迅速 引 
视觉 任务 由 卷 积 神经 网 络 主导 ， 自 AlexNetl4l7E ImageNet K 入 改进 0720 并 用 于 各 种 下 游 任 务 P220。 由 于 Transformer 的 
像 分 类 挑战 中 获得 冠军 之 后 ， 卷 积 神经 网 络 架 构 通 过 一 系列 自 注意 力 模块 对 整个 输入 序列 进行 操作 ， 处 理 自 然 图 像 时 把 
设计 变 得 更 深 、 更 密集 且 卷 积 形 式 更 复杂 [51，ResNetD5] 提 出 每 一 个 像素 点 都 看 做 一 个 标记 , 其 长 度 会 远 远 长 于 单词 序列 ， 
了 残 差 网 络 在 加 深 网 络 层 数 时 解决 了 梯度 消失 问题 ; 寻 此 会 比 卷 积 操作 产生 更 多 的 内 存 和 计算 成 本 。ViT 采用 折 
DenceNetlg 引 入 了 密集 连接 的 拓扑 结构 将 每 个 卷 积 块 与 前 中 策略 将 多 个 像素 点 岩 入 图 像 补 本 Patcb) 作 为 一 个 标记 
个 卷 积 块 连接 起 来 :， VGGI 通 过 县 加 卷 积 核 扩 大 感受 野 的 方 ” (Token) 输 入 自 注意 力 模 块 进行 计算 , 但 是 计算 复杂 度 仍然 过 


T 


法 加 深 网 络 ，GoogLeNett9 通 过 构建 密集 的 块 结构 来 近似 最 。 高 且 要 求 输入 图 片 只 能 是 固定 大 小 。 对 ViT 的 改进 可 以 分 为 
优 的 稀 玻 结构 在 提高 性 能 时 不 增加 计算 量 ， EfficientNet0q 三 类 : 
证 明了 可 以 利用 复合 系数 统一 缩放 模型 所 有 维度 从 而 提高 模 a) 改 进 ViT 设计 本 身 ，DeiT09 引 入 了 合适 的 训练 策略 来 


二 

型 性 能 。 男 一 方面 ，Transformer 由 于 自 注 意 力 模块 具有 捕捉 。” ”摆脱 大 规模 的 预 训练 并 采用 蒸馏 的 方式 引导 模型 进行 更 好 的 
长 距离 依赖 0 的 能 力 而 被 用 于 自然 语言 处 理 任务 ,许多 研究 学习; T2T-ViTP?9 采 用 渐进 式 方式 将 图 像 结 构 化 为 图 片 补 ] 
人 员 受 此 启发 , 尝试 探索 Transformer 结构 在 计算 机 视觉 任务 ” 并 保留 了 局 部 结构 信息 ,克服 了 ViT 中 简单 标记 化 的 局 限 性 ; 
中 的 应 用 。 文献 [12~15] 已 将 自 注意 力 模 块 纳入 卷 积 神经 网 络 Dynamicvit23 利 用 Transformer 标记 是 非 结构 化 序列 的 特点 ， 


收 稿 日 期 : 2022-03-28; 修 回 日 期 : 2022-05-17 ”基金 项 目 : 湖北 省 技术 创新 专项 (2019AEA169); 湖北 省 科技 重大 专项 (2020AAA001) 

作者 简介 : 胡 杰 (1984-)， 男 (通信 作者 )， 湖 南 永 州 人 ， 副 教授 ,博导 ， 博士， 主要 研究 方向 为 智能 网 联 汽车 、 车 联网 与 大 数据 (auto_hj@163.com); 昌 
敏 杰 (1999-)， 男 ， 湖 北 斌 州 人 ， 硕 士 研 究 生 ， 主 要 研究 方向 为 机 器 视觉 ; 驴 宗 权 (1995-)， 男 ， 江 苏 南京 人 ， 硕 士 研究 生 ， 主 要 研究 方向 为 车 道 线 检测 ; 
徐 博 远 (1998-)， 男 ， 湖 北 仙桃 人 ， 硕 士 研究 生 ， 主 要 研究 方向 为 目标 检测 ; 谢 礼 浩 (1996-)， 男 ， 江 苏 徐州 人 ， 硕 士 研 究 生 ， 主 要 研究 方向 为 目标 检测 ; 
郭 迪 (1996-)， 男 ， 湖 南 常 德 人 ， 硕 士 研 究 生 ， 主 要 研究 方向 为 目标 检测 . 


设计 了 一 种 标记 黎 足 化 剪 术 的 方法 ， 通 过 


者 使 用 卷 积 来 蔡 换 Transformer 中 的 线性 


9 设计 新 的 主干 网 络 和 
个 金字 塔 结构 的 主干 网 络 逐 层 对 特 4 
块 来 权衡 模型 效率 


了 一 个 跨 块 自 注 意 
起 来 从 而 使 得 局 部 信息 
地 征 图 划分 到 不 同 固定 大 小 的 局 部 有 
注意 力 来 降 


内 计算 自 


经 网 络 捕获 局 部 注意 力 来 弥 订 


信息 量 不 大 的 


入 到 ViT 设计 中 ， 利 用 卷 


ET 


BZ}, CoAtNet?4 


局 部 特征 。 


vrengt T 
各 进行 下 采样 并 使 用 了 
准确 率 ，CATC4 设 计 
块 将 序列 补丁 内 的 注意 力 和 序列 补丁 闻 的 


局 信息 交互 ; Swin 


[22] 


楼 一 个 


ADA BER 
单 地 将 
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Ex, 


AWS 多 尺度 嵌入 模块 
注意 力 模块 计算 之 前 ， 需 要 将 图 片 的 像素 
序列 化 为 二 维和 矩阵 形式 来 满足 


将 图 像 输入 自 


块 划分 为 等 大 小 的 图 片 率 


的 全 局 特征 和 局 部 特征 。 最 后 ， 
妈 像 分 类 头 (Classification Head) 
介绍 各 个 模块 原理 及 作用 。 


信息 的 破坏 从 而 


司 位 置 和 大 小 的 像素 
捕捉 到 完整 且 


口中 ， 通 过 


; DPTP27 自 适应 
可 以 避免 对 语义 
与 对 象 相关 的 局 部 结构 ; 


E 干 网 络 用 于 


有 一 些 


C 


图 跨 空间 和 跨 尺 度 的 非 局 部 特征 进行 编码 


局 限 性 ， 


在 尺度 单一 的 问题 ， 提 晶 
With Scale), AWS 模块 使 月 
pene hgh: 


主要 工作 如 下 : 


tH 多 尺度 


一 个 阶段 的 输 


i t T 模型 


题 ,设计 新 的 


Local Attention With Patch)， 通 过 交替 捕获 


和 单一 尺度 的 图 片 
入 自 注意 力 模块 时 会 天 失 许多 语义 信息 此 时 需要 跨 
人 关系 
征 和 细 粒 PER 


司 时 图 像 分 类 任务 
F 之 间 的 交互 来 捕获 目标 信息 。 
模型 输入 特征 图 
RAEI AWS(Attention 
不 同 尺 度 的 卷 积 核对 图 片 进 行 采 
主意 力 补丁 输入 到 
尺度 图 片 补丁 ; b) 
无 法 对 像素 块 长 距离 建 模 导致 粗 
注意 力 模块 GLA-P(Global- 


局 补丁 和 局 部 补 


细 粒 度 特 征 来 弥 
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CIFAR100 pearl 


注 ; UE 在 不 影响 网 络 性 能 的 
量 ; We 
在 公开 数据 集 
像 分 类 实验 , 结果 表明 i 在 图 


4 证 了 各 个 模块 的 有 效 人 性。 


chinaXiv 


ù FAE al 


hi 


rth TENE BMA, 
前 提 下 减少 计算 
I 称 为 MultiFormer-Tiny、- 


CIFAR10 和 


量 级 的 对 比 网 络 ， 


图 | 


| 络 参考 PVTPH 设 
Z RERA RRA 
4 1(b) 所 示 ， 每 个 MultiFormer 模块 
模块 和 一 个 多 层 感知 机 MLP 组 成 ， 


像 分 类 网 络 整体 框架 如 图 
计 为 4 阶段 金字 塔 结构 ,每 个 阶段 由 AWS 
多 个 MultiFormer Block 顺序 组 合 而 成 ; 如 
一 个 GLA-P 自 注 意 力 
命 入 数据 非 线 性 


通过 消融 实验 


如 图 2 中 补 ] 
图 片 中 相 ABH a 
段 的 补丁 数量 固定 ， 从 而 
力 模块 计算 。 这 种 划分 方式 会 


x4 的 小 补丁 ， 
X16 的 大 补丁 并 将 
补丁 维度 和 大 小 形成 金字 
而 且 


序列 化 为 二 维 
尺度 
尺度 语义 信息 ， 导 
在 生成 图 片 补丁 之 前 会 利 
职 操作 ， 生 成 语义 信息 了 
入 补丁 的 语义 信息 。 
HxWx3 的 RGB 图 像 作为 输 
进行 采样 ， 将 采样 框 
同 的 中 心 和 不 同 的 尺度 ， 


行 卷 


4， 步 幅 
设置 为 


Patch 划分 方式 对 比 所 示 ，ViT f 
1 分 为 固定 大 小 的 补丁 使 每 个 阶 
便 圣 入 绝对 位 置 编码 输入 自 注 意 
导致 每 个 阶段 的 自 注 意 力 计算 
时 呈 平 方 倍 增长 ， 并 需要 大 量 数据 集 进 行 预 训练 而 且 难 以 训 


然后 也 


Patch 划 分 方式 对 比 


练 到 收 剑 。 与 ViT 不 同 ，AWS 模块 先 将 图 片 划分 成 大 小 为 4 
上 用 下 采样 将 小 补丁 合并 为 8X8 和 16 


不 必 限 制 每 个 阶 
定 大 小 图 片 的 劣势 。 


Attention With Scale(AWS) 


f E ju ia 


BETTS 2 fi, 通过 减少 补丁 数量 ， 扩 大 
构 ， 不 仅 降低 了 计算 复杂 度 ， 
段 的 补丁 数量 ， 解 决 了 ViT 必须 输入 固 


Patch 度 对 比 


Parameters of convolution kerel PVT and Swin 


42 AWS 模块 


Fig.2 Module diagram of AWS 


PVTP0 和 Swin PIEKA ER Ar kl a} AEA) Bb TSF 
于 忽视 了 输入 特征 图 尺度 对 图 片 补 
的 影响 ， fee lahat T Bes 并 会 丢失 目标 的 多 
性 能 降低 。 本 文 设 计 的 AWS 模块 
Aas A 核对 输入 图 片 进 
富 的 多 尺度 特征 图 用 于 增强 嵌 
如 图 2 所 示 ， 首先 ，AWS 模块 接收 一 个 
入 ， 使 用 三 个 不 同 大 小 的 卷 积 核 


FEPER, 


特征 图 参考 人 眼 视觉 特征 


首先 ， 输 入 图 片 通过 


Fig.1 


图 1 算法 框架 


Algorithm framework 


a 
(b)MultiFormer NAA 4 


AWS 模块 和 9 


分 为 具有 多 尺度 信 


金字 塔 结构 。 
MultiFormer Block 中 的 GLA-P 
Attention with Patch) 和 LAP(Local Attention with Patch) 即 打包 


E 成 多 尺度 特征 图 并 划 
息 的 图 片 补丁 , 对 除了 Stagel 之 外 的 输出 
采样 将 补丁 数量 减少 为 四 分 之 一 并 把 输出 维度 扩大 为 


然后 ， 把 生成 的 多 尺度 补丁 接 入 


, GAP(Global 


入 图 。 
8X8 F 


KIER at A 4 


致 ， 让 每 个 采样 框 都 有 相 


其 中 Stagel 的 AWS 卷 积 核 大 小 设 
置 为 2X2、4X4 和 8X8， 后 三 个 Stage KEN 2X2 Fil 4x 


都 设置 为 4X4， 为 了 便 了 


F 特征 图 的 融合 将 通道 数 都 


最 后 ， 将 Stagel 中 划 


D。 然 后 ， 将 通过 不 同 尺度 卷 积 核 采样 得 到 的 多 尺度 
9 融合 成 语义 信息 丰富 的 特征 笑 
分 的 4X4 大 小 的 补丁 下 采样 为 


0 16X16 大 小 的 补丁 ， 


将 维度 扩大 为 两 倍 形成 金字 
塔 结构 。 与 其 他 Transformer 网 络 划分 的 Patch 尺度 对 比如 图 2 
到 片 进行 划分 时 , 粗糙 地 将 原始 


则 所 示 , PVT 和 Swin iia 入 


关注 到 4X4 HAA 
4 大 小 的 像素 


丁 受 特征 图 尺度 的 限制 只 能 


息 ， 如 果 目 标尺 度 不 局 限于 4 Xx 


块 之 内 ， 则 模型 会 


为 无 法 关注 到 图 片 目标 其 他 


模块 通过 多 尺度 卷 积 
X2、4X4 和 8X8 44 


j 提 升 模型 性 能 。 


尺度 内 的 语义 信息 而 造成 目标 特征 信息 缺失 ; 本 文 提 出 的 AWS 
操作 使 得 划分 的 补丁 能 够 聚合 特征 图 中 2 
度 中 像素 块 的 语义 信息 从 而 生成 特征 
窒息 丰富 的 补丁 ， 在 输入 后 续 模 块 时 能 够 浆 补 Swin 和 PVT | 
于 补丁 多 尺度 特征 信息 
1.2 GLA-P 自 注意 力 模块 


通过 AWS 模块 生 
输入 图 1(a)MultiFormer 模块 中 的 GLA-P 自 注意 力 模 块 计算 。 


ø 1(b) 所 示 ， 由 于 £R 


局 部 注意 力 交 蔡 出 现形 成 GLA-P 自 注 意 


标 上 


] 之 后 ， 需 要 将 图 片 补 ] 


王 务 中 ， 网 络 需要 同时 捕获 


的 细 粒 度 和 粗 粒 度 特 4 


在 MultiFormer 模块 中 设 
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iF Y GAP 和 LAP 


能 够 捕获 全 局 注意 力 和 局 部 注意 力 来 保留 目标 的 粗 粒度 和 细 
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交 蔡 形成 新 的 自 注 意 力 模块 GLA-P， 从 i 


a 


re 


立 度 特征 。 如 图 3 


所 示 , 输入 LAP 和 GAP 的 是 经 过 AWS 模 


块 通 入 的 多 尺度 特征 图 Ho xWoxD, XF LAP, 


每 4X4 的 相 


邻 像素 块 被 分 组 在 一 起 形成 Local Attention; 对 于 GAP, [Al 


样 4X4 数量 但 间隔 为 4 的 像素 块 被 分 为 一 组 


成 Global 


Attention， 不 相 邻 的 像素 块 由 于 广泛 分 布 为 生成 的 补丁 提供 


了 足够 的 上 下 文 信息 ， 使 得 全 局 注 


意 力 变 得 更 加 有 效 。 


GLAP 


其 中 ，x 为 输入 特征 图 ，g,k,veR”%” 为 生成 的 对 应 维度 的 矩 
阵 ， 本 文 在 注意 力 每 个 头 部 都 添加 一 个 可 学 习 的 相对 位 置 偏 
Fz [30-32] B e Rha WWA, Conv 为 对 应 的 卷 积 操作 ，< 
Patch(q,k,v,P=2) 中 P 的 大 小 有 关 ， 例 如 P=2， 则 卷 积 核 大 小 
为 4, KAV 的 维度 为 8 的 四 分 之 一 ，Norm() 为 层 归 一 化 1 


Attention) 为 自 注 意 力 操作 ， 计 算 如 下 : 
Attention(q,k,v) = sweat 一 +B)v (3) 
与 Swin 同时 处 理 Query、Key 和 Value 不 同 ， 本 文 
es ee 后 能 在 不 影响 精度 的 情况 下 减少 P 


`L 名: 是 


in 
4 Be 


音 计 算 量 ， 经 过 Attention Patch 打包 操作 后 参数 减少 情 
况 如 表 1 所 示 。 


图 3 Global-Local Attention With Patch 模块 
Fig.3 


Module diagram of GLA-P 


与 CoAtNet29 中 的 GLA(Global-Local Attention) iit 4842 


神经 网 络 捕获 局 部 特征 ， 自 注意 力 模块 捕获 全 局 特征 不 同 ， 


本 文 提 出 的 GLA- 


P 模块 通过 对 相 邻 和 相间 隔 的 像素 块 分 别 


进行 短 距 离 和 长 距离 建 模 而 不 依赖 于 卷 积 神 经 网 络 来 交 蔡 捕 


获 全 局 注 


意 力 和 局 部 注意 力 。 为 了 更 直观 地 观察 GLA-P 自 注 


意 力 模块 的 作用 方式 ， 


以 MultiFormer-Base 为 例 ， 将 训练 好 


的 模型 最 后 一 层 特征 图 输出 的 各 个 像素 得 分 经 过 激活 函数 后 ， 


表 1 模型 参数 及 计算 量 示 意 
Table 1 Model parameters and calculation quantity 
Model MultiFormer-Tiny MultiFormer-Small MultiFormer-Base 
Before Params(M) 32.7 39.8 54.7 
Patch Flops(G) 3.2 5.4 7.4 
After Params(M) 22.8 30.5 45.7 
Patch 。 Flops(G) 2.4 4.8 6.9 
同时 由 图 2 可 将 MultiFormer 计算 细节 描述 如 下 : 


zL = GAP(LN(z'")) + z 

z! = MLP(LN(z6)) + zh 

zo! = LAP(LN(z')) +z! 人 
zit 1 = MLP(LN(z5}! )) + ga! 


Hh, z Jiz Xn MultiFormer 块 中 GAP 模块 和 MLP 


映射 回 原 图 得 到 Global-Local Attention 自 注意 力 可 视 化 表述 ， 


说 明 本 文 


自 注意 力 模块 能 


如 图 4 所 示 ， 明 亮 部 分 为 自 注意 力 所 关注 的 部 位 ， 
È 了 效 捕 获 图 像 全 局 信息 。 


与 其 


Swin 将 特征 图 划分 为 几 个 不 重合 的 窗 
独立 执行 自 注意 力 操作 ， 


也 Transformer 模型 的 自 注意 力 模块 对 比如 图 3 所 示 ， 


限制 在 每 一 个 窗口 内 
此 外 为 了 补偿 缺失 的 全 局 信息 ， 提 出 


= | 


了 一 种 滑动 窗 


的 补丁 ， 


口 策略 在 不 同窗 口 之 
将 自 注 意 力 计算 局 限 在 相 邻 的 像素 块 之 间 ， 
进行 长 距离 建 模 。 
Attention 对 广泛 分 布 的 像素 块 进行 建 模 而 生成 具有 上 
与 通过 Local Attention 对 相 邻 像素 块 建 模 生 成 的 补丁 
相 结合 , 经 过 GLA-P 形成 的 补丁 同时 保留 输入 图 片 的 全 局 信息 


间 交 换 信息 , 不 过 Swin 依然 
无 法 对 生成 的 补丁 
意 力 模块 通过 Global 
文 信息 


本 文 提出 的 自 注 


模块 的 输出 特征 ，z 交 和 :xz 表示 LAP 模块 和 MLP 模块 的 
输出 特征 。 
13 ”模型 变 体 

遵循 残 差 网 络 结构 ResNetD5 的 设计 规则 ， 本 文 构建 了 三 
个 不 同 尺 度 大 小 的 模型 , 分 别称 为 MultiFormer-Tiny, -Small, 
和 -Base, 它们 的 模型 大 小 和 计算 复杂 度 为 1:1.5:3 的 关系 , 其 
中 MultiFormer-Tiny、-Small 和 -Base 的 计算 量 和 计算 参数 分 
别 与 ResNet-18、ResNet-50 及 ResNet-101 相似 ,主要 超 参 数 
设置 如 下 : 
MultiFormer-Tiny: D=64, Depth =({1,1,8,6}, Heads = {2,4,8,16} 
MultiFormer-Small: D=96, Depth = {2,2,6,2}, Heads = {3,6,12,24} 
MultiFormer-Base: D=9%6, Depth = {2,2,12,2}, Heads = {3,6,12,24} 


和 局 部 信息 ， 在 自 
细 粒 度 特征 从 而 


Input 


After Attention 


一 一 一 ; 


注意 力 计算 后 能 够 同时 关注 目标 的 粗 粒度 和 
下 分 类 任务 中 表现 出 色 。 


自 注 意 力 可 视 化 


Fig.4 Self-attention visualization 


实际 上 ， 为 ] 


尽 可 能 保留 原 特 征 图 的 语义 信息 ， 本 文大 


补丁 的 分 辩 率 会 比较 大 (如 Stagel 中 经 过 GLA-P 处 理 后 的 补 


丁 大 小 为 28X28)， 在 序列 化 为 二 维 


数组 时 计算 量 依 然 会 很 


大 ， 因 此 本 文 设置 了 
意 力 (Multi-head attention) 


的 多 头 注 ; 


细节 表述 如 下 : 


查询 (Query)、 键 (Key) 和 值 (Value) 


一 个 卷 积 打包 方式 来 蔡 代 传统 编码 器 中 
1， 与 MHA 类 似 ， 接 收 


输出 


Patch(q,k,v, P = 2, B) = Attention(Q, K',V’, B) (1 ) 


Q=xq 
K' = Norm(reshape(Conv(xk))) (2) 
V' = Norm(reshape(Conv(xv))) 


个 改进 的 加 强 特征 。 


其 中 ，D 为 第 一 阶段 隐藏 层 的 通道 数 ， Depth 为 每 个 stage 包 
AAJ MultiFormer Wt, Heads 为 多 头 注意 力 的 维度 。 且 在 
GLA-P 模块 中 将 小 补丁 租 入 为 大 补丁 时 的 大 小 为 
Group_size={28,14,14,7} ， 利 用 卷 积 将 注意 力 打包 时 将 Patch 设 
BHA P=(4.220 ， 模 型 设计 及 详细 超 参 数 设置 如 表 2 所 示 。 


2 实验 


本 文 设计 的 MultiFormer 图 像 分 类 网 络 在 ImageNet- 
1K, CIFAR10 和 CIFAR100 数据 集 上 进行 图 像 分 类 实验 并 与 
同 量 级 且 具 代表 性 的 卷 积 神经 主干 网 络 ResNetI5] 以 及 其 他 基 
于 Transformer 的 主流 模型 进行 对 比 , 随后 进行 充分 的 消融 实 
验 验 证 各 个 模块 的 有 效 性 。 
2.1 图 像 分 类 实验 

ImageNet-1K 数据 集 B4 包 含 来 自 1000 个 类 别 的 128 万 
张 训练 图 片 和 5 万 张 验证 图 片 ， 本 文 在 训练 集 上 训练 模型 ， 
并 用 验证 集 测 试 输出 Top-1 精确 度 (排名 第 一 的 类 别 与 实际 结 
果 相 符 的 准确 率 )。 本文 将 图 像 大 小 随机 裁剪 为 224X224, 优 
化 器 选择 动量 为 0.9 且 衰 减 权 重 为 0.05 余弦 衰减 的 AdamW 
优化 器 ， 批 次 (batch_size) 设 为 128， 初 始 学 习 率 为 0.001， 所 
有 模型 都 在 4 张 2080Ti 显卡 上 从 头 开 始 训练 300 个 epoch, 
实验 结果 如 表 3 所 示 。 
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表 2 MnultiFormer 主干 网 络 模型 变 体 
Tab.2 Model variants of backbone networks of multiformer 
Output Size Layer Name MultiFormer-T MultiFormer-S MultiFormer-B 
Š j AWS Kernel size: 4x4,8x8,16x16, Stride =4 
tage- 
GLA-P D,=64.H,=2] D,=96,H, =3] ， D,=96,H,=3] , 
56x56 MLP Famer lca lace a 
é j AWS Kernel size: 2x2,4x4, Stride =2 
tage- 
GLA-P eo kA [D =192.4,=6) D,=192,H,=6] » 
28x28 MLP |G, =14,P =2 [G =14,R=2 | Rees | 
§ 3 AWS Kernel size: 2x2,4x4, Stride =2 
tage- 
GLA-P [D, =256, H, =8 [D =384.H, =12] 6 D, =384,H,=12] 1 
14x14 an LG, =14,R =2 | [|G=14,8=2 J“ G =14,R =2 
5 4 AWS Kernel size: 2x2,4x4, Stride =4 
tage- 
GLA-P [D, =512,H, =14 7 [ D, =768, H, =24] > D, =768,H, =24] à 
a MLP LG =7R=1 } la=naa1 下 Pai Ü 
Head Avg Pooling Kernel size: 7x7 
1x1 Linear Classes; 1000 


表 3 分 类 实验 Top-1 精度 对 比 


Tab.3 Comparison oftop-l accuracy of classification experiment 


Method Param/M FLOPs/G Top-1/% 
R18*[5] 11.7 1.8 69.8 
R18[5] 11.7 1.8 68.5 
DeiT-T09] 5.7 1.3 72.2 
PVT-S?4 24.5 3.8 79.8 
MultiFormer-Tiny 22.8 2.4 81.1 
RS5O*[5] 25.6 4.1 76.1 
R50"! 25.6 4.1 78.5 
DeiT-S!°! 22.1 4.6 79.9 
T2T-Vi T 21.5 5.2 80.7 
Swin-T!?! 29.0 4.5 81.3 
CAT-SP4] 37.0 5.9 81.8 
PVT-M?!) 44.2 6.7 81.2 
MultiFormer-Small 30.5 4.8 82.2 
R101*[5] 44.7 7.9 77.4 
R101"! 44.7 7.9 79.8 
Swin-S'?! 50.0 8.7 83.0 
CAT-BP4 52.0 8.9 82.8 
PVT-LP! 61.4 9.8 81.7 
DeiT-B091 86.0 17.5 81.1 
ViT-Base/1609 86.6 17.6 81.1 
MultiFormer-Base 45.7 6.9 83.2 


从 表 3 结果 可 以 看 出 本 文 所 设计 的 MultiFormer 网 络 模 
型 在 参数 量 和 计算 量 相当 的 情况 下 明显 优 于 基于 卷 积 神经 网 
络 的 模型 ResNet 系列 ，MultiFormer-Tiny，-Small 和 -Base 模 
型 较 ResNet-18, ResNet-50 和 ResNet-101 模型 分 别提 升 
12.6%, 3.1% 和 3.4%; 对 比 同样 基于 Transformer 的 主流 模型 
ViT 和 Swin， 在 参数 和 计算 量 远 小 于 ViT-Base/16 模型 且 不 
需要 大 量 数据 预 训 练 前 提 下 ，MultiFormer-Base 提升 2.1%, 


证 了 所 设计 模型 的 有 效 性 。 


网 络 ResNet 以 及 


图 5(a) 和 (b) 分 别 为 模型 参数 和 模型 


同时 在 参数 量 较 Swin-S 降低 了 10% 的 前 提 下 提升 0.2%， 验 


图 5 为 本 文 所 设计 的 MultiFormer 网 络 模型 与 卷 积 神经 
他 基于 Transformer 工作 的 网 络 模型 对 比 ， 


| 算 量 与 分 类 数据 集 Top- 


1 准确 率 的 关系 , 可 以 看 出 本 文 所 设计 的 MultiFormer 网 络 模 


随机 从 ImageNet 数据 集 


型 在 参数 量 和 计算 量 相当 的 情况 下 全 面 优 于 其 他 模型 。 
中 抽取 
重 的 MultiFormer、PVT 和 Swin 网 络 中 进行 推理 ， 将 4 个 阶 


图 片 ,输入 已 加 载 训 练 权 


段 所 得 到 的 特征 图 相 加 并 映射 回 原 医 


多 


如 图 6 所 示 。 相 较 于 PVT 和 Swin 


F 


R] 


系 建 模 ， 


mr W 


得 到 图 像 分 类 实验 热力 
网 络 ，MultiFormer 在 处 


尺度 图 片 时 , 由 于 自 注意 力 模 块 GAL-P 能 对 上 下 文 关 


尺度 补丁 ， 因 此 能 


3 s 


ImageNet Top-] Accuracy(%) 
Sa 138268 


0 20 40 60 


(a):Model Params(M) 


a 


(b):Model Flops(G) 


原始 图 片 Ours 


ImageNet Top-] Accuracy(%) 
ooa na anyay 
< 


天 此 能 更 加 聚焦 于 目标 的 有 效 特征 ， 在 处 理 多 尺度 
片 时 ， 由 于 AWS 多 尺度 嵌入 模块 能 生成 语义 信息 丰富 的 
效 关 注目 标的 不 同 尺度 信息 及 其 轮廓 


—0— MukiFormer(Ours) 
Oh ResNet 
—A—DeiT 

——PVT 

= Swin 

—O—CAT 


—0— MukiFormer(Ours) 
一 D- ResNet 
—&— DaT 


图 5 实验 结果 折线 对 比 


Fig. 5 Broken line comparison diagram of experimental results 


图 6 图 像 分 类 热力 


对 比 图 


Fig.6 Thermodynamic diagram comparison of Image classification 


使 用 CIFAR10 和 CIFAR100 图 像 分 类 数据 集 对 所 设计 的 
MultiFormer 网 络 作 进 一 步 验 证 , CIFAR10 和 CIFAR100 分 别 
包含 10 个 和 100 个 类 别 ， 两 个 数据 集 都 分 别 有 5 万 张 训练 
集 和 1 万 张 测试 集 ， 在 训练 集 上 训练 模型 ， 并 用 验证 集 测试 
输出 Top-1 精确 度 。 为 了 避免 由 于 数据 集 较 小 而 出 现 过 揭 
的 情况 , 与 ViT 微调 策略 保持 一 致 , 将 ImageNet 分 类 实验 
得 的 训练 权重 分 别 加 载 到 MultiFormer-Tiny、-Small 和 -Base 
中 并 蔡 换 掉 分 类 检测 头 ,， 使 用 动量 为 0.9 的 SGD 优化 器 进行 
模型 微调 , 训练 批 次 和 轮 数 设置 为 64 和 300 轮 , 实验 结果 如 
表 4 所 示 。 


ar 


S o 


表 4 CIFAR 实验 结果 表 
Tab.4 Experimental results of CIFAR 


胡 杰 ， 等 : 基于 Transformer 的 图 像 分 类 网 络 MultiFormer 


Model Param/M CIFAR10 CIFAR100 
EfficientNetV2-S00] 24 98.7 91.5 
EfficientNetV2-M"! 55 99.0 92.2 
EfficientNetV2-L""®! 121 99.1 92.3 

LeViT-256!>! 18.9 98.0 = 

LeViT-384!5! 39.1 98.1 == 

ViT-B/1609] 86 98.9 91.6 

ViT-L/1609 307 99.1 93.4 

ViT-H/1609] 632 99.2 93.8 
MultiFormer-Tiny 22.8 99.0 92.2 
MultiFormer-Small 30.5 99.4 93.8 
MultiFormer-Base 45.7 99.5 94.1 

# 4 可 知 ， MultiFomer-Base 在 参数 量 较 


EfficientNetV2-L 降低 了 50% 的 前 提 下 ，CIFAR10 和 
CIFAR100 的 Top-1 精度 分 别提 高 0.4% 和 1.7%, 在 参数 量 为 
ViT-H/16 的 十 分 之 一 时 ，CIFAR10 和 CIFAR100 的 Top-1 精 
度 仍 能 分 别提 高 0.3% 和 0.3%; MultiFormer-Tiny 和 -Small 对 
比 同体 量 模型 Le ViT-256 和 -384 在 CIFAR10 上 Top-1 精度 分 
别提 高 1.0% 和 1.3%, 步 验证 了 本 文 所 提 模 型 
MultiFormer 的 有 效 怕 
2.2 ”消融 实验 

为 了 验证 所 设计 的 AWS 和 GLA-P 模块 的 有 效 性 ， 本 文 
基于 MultiFormer-Tiny 模型 在 ImageNet 图 像 分 类 数据 集 上 设 


Ht 


o 


T 


计 了 如 下 对 比 实 验 。 

a) 取 消 AWS £ RERA BEER, BON LR EEK A,  Stage- 
1 中 卷 积 核 设 为 单个 大 小 为 4X4 的 卷 积 核 , 其 他 阶段 的 下 采 
样 设 为 单个 大 小 为 2X2 的 卷 积 核 ， 结 果 如 表 5 所 示 ，AWS 
模块 帮助 模型 取得 了 很 大 的 性 能 提升 ，Top-1 准确 率 相 较 于 
RERA HEFT 0.6%。 
b) 用 GLA-P 模块 替换 为 Swin, PVTZAN CoAtNet!24 
模型 中 的 自 注意 力 模 块 , 结果 显示 精度 分 别提 升 0.3%、0.5% 
和 0.8%， 具 体 分 析 是 因为 Swin 采用 了 滑动 窗口 的 方式 将 自 


PVT 在 处 理 自 注意 力 特征 时 ， 对 生成 的 键 值 对 简单 下 采样 而 
舍弃 掉 了 细 粒 度 语义 信息 ; CoAtNet 在 主干 网 络 前 两 个 阶段 
过 度 依赖 卷 积 神经 网 络 提取 特征 会 丢失 部 分 全 局 信息 ， 导 致 
输入 图 片 粗 粒度 特征 的 缺失 而 精度 降低 。 以 上 实验 结果 表明 
交 蔡 捕获 局 部 注意 力 和 全 局 注意 力 能 有 效 提升 模型 性 能 。 

表 5 消融 实验 

Tab.5 Ablation experiment 
AWS GLA-P Swin-Attention PVT-Attention CoAtNet Top-1/% 


F 


v 80.5 
v v 80.8 
v 4 80.6 
v v 80.3 
v v 81.1 


注意 力 限 制 在 了 局 部 范围 而 忽略 掉 了 全 局 注意 力 之 间 的 联系 ; 


实验 条 件 和 超 参数 均 与 之 前 保持 一 致 ， 训 练 设 备 均 为 4 
张 2080Ti 显卡 ， 训 练 轮 数 为 300 轮 。 


3 ARA 


本 文 提 出 了 一 种 基于 Transformer 的 图 像 分 类 网 络 
MultiFormer， 核 心 组 成 为 (AWS)Attention With Scale 多 尺度 
组 入 模块 和 (GLA-P)Global-Local Attention With Patch 自 注意 
力 模 块 ， 实 验 结果 表明 在 参数 和 计算 量 相当 的 情况 下 相对 于 
卷 积 神经 网 络 和 其 他 基于 Transformer 的 工作 有 较 大 提升 ,证 
明了 多 尺度 庶 入 和 交替 捕获 局 部 注意 力 及 全 局 注意 力 能 明显 
增强 Transformer 网 络 中 自 注 意 力学 习 特 征 图 语义 信息 的 能 
力 ， 同 时 本 文 所 设计 的 主干 网 络 能 较 好 提取 特征 图 的 语义 信 
息 ， 有 望 成 为 计算 机 视觉 任务 通用 主干 网 络 并 用 于 其 他 下 游 
任务 。 目 前 Transformer 正在 计算 机 视觉 领域 飞速 发 展 并 成 为 
了 一 种 趋势 ,希望 本 文 能 对 后 续 基于 Transformer 模型 所 进行 
的 工作 能 够 起 到 启迪 作用 。 
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